#comportamiento agente

TRACE: Marco de asignación de rollout para RL agente eficiente

Descubre cómo TRACE asigna presupuesto de rollout a nodos prometedores en RL agente multi-turno, mejorando contraste de recompensas y rendimiento.

WRIT genera trayectorias sintéticas para entrenar agentes multi-turno con decisiones basadas en evidencia, y con solo 2K ejemplos supera a GPT-5.1.